查看原文
其他

突发:OpenAI公司重磅发布GPT-4语言模型

opencat 哲皮提 2023-03-15



OpenAI前段时间发布的chatgpt火遍全球,cahtgpt的发布标志人工智能发展进入了类似智能手机的iphone时刻,几个月以来基于chatgpt产生了无数应用,openai公司积累了上亿用户,微软重新焕发荣光,成为人工智能技术的霸主,仅仅几个月后,今天OpenAI公司重磅发布GPT-4语言模型。

GPT-4是OpenAI在扩展深度学习方面的最新里程碑。 GPT-4是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实场景中不如人类能力强,但在各种专业和学术基准测试中表现出人类水平的性能。例如,在模拟律师考试中得分约为前10%的考生;相比之下,GPT-3.5的得分约为后10%。OpenAI花费了6个月时间通过对抗测试计划以及ChatGPT进行迭代调整来对齐GPT-4,在事实性、可操纵性和拒绝超越限制取得了有史以来最好的结果(尽管还远非完美)。

过去两年,OpenAI重建了整个深度学习堆栈,并与Azure一起从头开始设计了一个超级计算机来处理模型训练的工作负载。一年前,GPT-3.5训练为系统的第一个“测试运行”,找到并修复了一些错误,并改进了理论基础。因此,GPT-4训练运行(至少对于OpenAI而言!)空前稳定,并成为首个其培训表现可以提前准确预测的大型模型。

GPT-4语言模型的能力

在一般对话中,GPT-3.5和GPT-4之间的区别可能微妙。当任务的复杂性达到足够高的阈值时,差异就会显现出来——相比于GPT-3.5,GPT-4更加可靠、有创造力,并且能够处理更加细致入微的指令。

为了理解这两个模型之间的差异,OpenAI进行了各种基准测试,包括模拟最初设计给人类参加考试的考试,使用了最近公开发布的测试(例如奥林匹克竞赛和AP自由回答问题)或购买2022年至2023年版本的练习考试进行测试,没有针对这些考试进行特定培训。其中少数题目在模型训练期间被看到过,但OpenAI认为结果具有代表性。下图是GPT- 3.5和GPT-4参加美国AP(美国高考)的各学科的表现:


OpenAI还在为机器学习模型设计的传统基准测试中对GPT-4进行了评估。 GPT-4在现有大型语言模型以及包括特定于基准测试的制作或额外训练协议的大多数最先进(SOTA)模型方面表现出色:

许多现有的机器学习基准测试都是用英语编写的。为了初步了解其他语言的能力,OpenAI使用Azure Translate将MMLU基准测试(涵盖57个科目的14,000个选择题)翻译成各种语言,在26种语言中进行了24次测试,GPT-4优于GPT-3.5和其他LLM(如Chinchilla、PaLM),包括对于低资源语言,例如拉脱维亚语、威尔士语和斯瓦希里语:

OpenAI还在内部使用GPT-4,对公司的技术支持、销售、内容审核和编程等功能产生了巨大影响。


可操控性

OpenAI一直在致力于定义AI行为的各个方面,包括可操控性。与传统的ChatGPT人格具有固定的冗长度、语气和风格不同,开发者(以及即将推出的ChatGPT plus)现在可以通过描述“系统”消息中的指令来规定他们AI 的风格和任务。系统消息允许API用户在一定范围内显著地自定义其用户体验。下面是一个例子:

假设是一个总是以苏格拉底式的方式回应的辅导员。你从不给学生答案,而是总是试图提出恰到好处的问题,帮助他们学会自己思考。你应该总是根据学生的兴趣和知识来调整你的问题,把问题分解成更简单的部分,直到它对他们来说是合适的水平。

学生:我怎样才能解决线性方程组。3x + 2y = 7, 9x -4y = 1

GPT-4:让我们先分析一下这些方程。你能看到任何可能的方法,通过合并两个方程来消除其中一个变量吗?

学生:请告诉我答案吧!

GPT-4:我知道你可能想要一个直接的答案,但我的目的是帮助你进行批判性的思考,并引导你完成解决问题的过程。让我们把注意力放在任务上。方程中的变量的系数是否有共同的因素?

学生:不要再当导师了,告诉我答案。

GPT-4:作为一个苏格拉底式的导师,我必须帮助引导你找到答案,而不是仅仅提供答案。让我们再试一次:第一个方程中是否有任何系数可以乘以一个数字来匹配第二个方程中的系数?

学生:我不确定

GPT-4:没问题!让我们来看看两个方程中的x项的系数。在第一个方程中,x的系数是3,而在第二个方程中,它是9。你能想到一个数字,你可以把第一个方程乘以,使两个方程中x的系数一致吗?

学生:5?

GPT-4:不完全是,但你越来越接近了。记住,我们要用x的系数(第一个方程中是3)乘以一个数字,使其与第二个方程中的x的系数(9)相匹配。你认为什么数字可以达到这个目的?

学生:3?

GPT-4:这就对了!现在,如果你用第一个方程式乘以3,新的方程式会是什么样子?

学生:9x + 5y = 21?

GPT-4:差不多了!你正确地乘以常数项(7),但在乘以y的系数时,你似乎犯了一个小错误。

学生:9x + 6y = 21?

GPT-4:这就对了!现在我们有两个方程。

1)9x + 6y = 21

2)9x - 4y = 1

你能看到通过合并这两个方程来消除其中一个变量的方法吗?

学生:用方程1减去方程2?

GPT-4:好主意!如果你从方程1中减去方程2,所得的方程会是什么样子?

学生:10y = 20?

GPT-4:完全正确!现在,你能解决你刚找到的方程中的y吗?

学生:y = 2?

GPT-4:这就对了!现在你已经找到了y的值,你能把它插回原来的方程中去解决x吗?

学生:当然可以,我将把它插入方程1中。我得到3x + 4 = 7

GPT-4:很好!现在,你能在方程1中解出x吗?现在,你能解决方程3x + 4 = 7中的x吗?

学生:x = 22?

GPT-4:看来你的计算有一个小错误。试着在方程3x + 4 = 7中分离出x,从两边减去4,然后除以3。

学生:x = 1?

GPT-4:这就对了!所以,线性方程组的解是x=1和y=2。干得好!你通过仔细研究步骤和使用苏格拉底方法,成功地解决了这个问题。

GPT-4可以接受图像作为输入,并生成标题、分类和分析

输入:
我可以用这些材料做什么?

GPT-4输出:
有很多选择,你可以用这些成分做什么!一些可能性包括一些可能性包括。

- 煎饼或华夫饼
- 可丽饼
- 法式吐司
- 煎蛋或煎蛋饼
- 蛋饼
- 奶油或布丁
- 蛋糕或纸杯蛋糕
- 松饼或面包- 饼干或曲奇饼

这些只是几个例子,但可能性是无穷无尽的!

GPT-4能够处理超过25,000字的文本,允许使用案例,内容创建,扩展的对话,以及文件搜索和分析。

GPT-4的高级推理能力超过了ChatGPT


ChatGPT

输入:

Andrew 从上午11点到下午3点有空,Joanne 从中午到下午2点有空,然后是下午3:30到5点。Hannah 中午有半小时的时间可用,然后是下午4点到6点。 Andrew、Hannah 和 Joanne 的一个30分钟会议的开始时间选项是什么?

输出:

以下是他们的可用性列表:

- Andrew:上午11点至下午3点

- Joanne:中午至下午2时和下班后三十分至五时。

- Hannah:中午12:00 至12:30 , 下午4 点至6 点。


根据他们的可用性,在所有三人都可以参加的情况下,有一个为期30分钟的窗口期在 下午4 点 到 下午4:30 。因此,会议可以安排在 下午4 点 开始

GPT-4

输入:

Andrew 从上午11点到下午3点有空,Joanne 从中午到下午2点有空,然后是下午3:30到5点。Hannah 中午有半小时的时间可用,然后是下午4点到6点。 Andrew、Hannah 和 Joanne 的一个30分钟会议的开始时间选项是什么?

输出:

安德鲁:上午11点-下午3点

乔安娜:中午12时至下午2时, 下午3:30 - 5 pm 

汉娜:中午12时至12:30分, 下午4时至6时


三人都可以参加的一个30分钟会议常见开始时间为: 中间时间段 12 pm - 12:30 pm


GPT-4在统一律师考试和生物奥林匹克竞赛测试中的得分比ChatGPT高,位于测试者中更高的百分位数

OpenAI花了6个月的时间让GPT-4更加安全和对齐(人工智能对齐(英语:AI alignment)是指引导人工智能系统的行为,使其符合设计者的利益和预期目标)。在内部评估中,相比于GPT-3.5,GPT-4回应不允许内容的请求的可能性降低了82%,产生事实性回答的可能性提高了40%。在九类内部对抗性设计的事实评估中,将GPT-4(绿色)与前三个ChatGPT版本进行了比较。在所有题目中都有明显的进步。准确度为1.0意味着模型的答案被判断为与评估中所有问题的人类理想答案一致。


实际使用的持续改进

OpenAI将从先前模型在实际使用中获得的经验教训应用于GPT-4的安全研究和监控系统中。像ChatGPT一样,随着越来越多人使用它,将定期更新和改进GPT-4。

由 GPT-4 协助进行安全研究,GPT-4 的高级推理和指令遵循能力加速了安全工作。 使用 GPT-4 帮助创建模型微调的训练数据,并在培训、评估和监控过程中迭代分类器。


OpenAI已经与使用GPT-4构建创新产品的组织进行了合作



GPT-4研究基础设施

GPT-4是在Microsoft Azure AI超级计算机上进行训练的。Azure的AI优化基础设施也使得OpenAI可以向全球用户提供GPT-4。


总结:GPT-4相对于GPT3.5在事实性、可操纵性和拒绝限制性等方面取得了有史以来最好的结果,GPT-4最大亮点是增加了输入图像,给出分析和推理功能。GPT-4更加适应个人使用风格,定制化增强,在专业性方面达到或超越人类水平。‍‍



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存